查看原文
其他

爬虫的一些主观看法

咪咪怪 咪哥杂谈 2019-10-31
咪哥杂谈

本篇阅读时间约为 4 分钟。


1

前言


思考了许久,近期和爬虫相关的文章暂时先画上一个句号。关于爬虫,笔者谈谈自己的一些看法。如果有哪里大家不认同的地方,欢迎留言探讨。


2

学习爬虫的流程


先来说说爬虫的流程。关于流程,其实亘古不变,大体三步:


1. 找到数据的地址(接口),模拟人为进行请求。


2. 分析你要的数据 HTML 源代码。


3. 数据落地,保存数据到文件中或者数据库中。


掌握好这三点,所谓的爬虫框架思路便有了,剩下的就是要自己去分析与实现。


目前市场上最常见且最麻烦的反爬机制应该是 js 对数据进行加密,无法让你直接获取的相关明文数据。遇到这种情况就只能多多利用搜索引擎了,学习的是绕过与解密的思路。



笔者并不是爬虫工程师,所以一直也没有相关需求深入研究这块的东西,但是出于兴趣,曾经看到过两个不错的博客,推荐给想深入学习爬虫的朋友们。


知乎上有一个专栏,作者是个反爬大神,每篇写的思路都很好,有需要的可以去看看:


https://zhuanlan.zhihu.com/webspider


另,比较体系的爬虫博客(崔庆才,崔大神的博客):


https://cuiqingcai.com


3

爬虫代码自主实现并不是唯一途径


由于 2016 年之后某乎炒起来的爬虫风,经过 3 年的沉淀,大部分网站都有写好的爬虫代码了。如果想学习,第一个想到的搜索引擎应该就是去 github 上搜索。大众的都会在上面找到。


之前的文章中写过一篇《不用写代码的爬虫工具》。当你熟悉编程以后,就会发现如果能不写代码,那是最舒服不过的了。根据不同的场景采用不同的工具,才是最具有效率的做法。


4

关于爬虫的看法


如果抛开商业公司来说,对于想学习 Python 的朋友们,爬虫依然是最好的入门实战练习选择之一。


但如果你已经掌握了大部分爬虫的原理,重复来重复去的写不同网站的爬虫,其实意义不是很大,爬虫仅仅是为了将网络上大部分公开数据搞到自己手里而已。爬取完了,然后呢?是不是就没然后了?相信大部分人都是把数据爬下来就结束了。从学习者的个人角度出发,单纯的爬虫一项是不足以为自己带来收益的。



从爬虫到数据分析的过程,知乎上见过一个成功案例,路人甲大大。人家那个不仅仅是为了爬取而爬取,爬取相应的内容后,通过数据分析给部分商业公司带来了可观的商业价值。这才是有意义的事儿。


若是说为了兴趣而写代码,相信没有多少人真的能坚持下去,初入社会时,天真的我以为真的是对代码感兴趣,实则不然,大概是因为这个时代月薪码农的工资还是较为可观的,要是转化成时薪一算,并不是可观的(加班呀,一天不止8小时工作时间)。


话说回来,如果学习爬虫要是为了赚钱,那肯定又是另一回事儿了。谁不爱钱呢?不要觉得谈钱俗,生在互联网时代,越早有商业思维,越能早点实现财务自由。


单单是通过写爬虫能给自己带来可观的收入或是价值,那也是不错的。但是往往想通过爬虫来创造对自己的收益,还需要别的技能,比如数据分析、web开发等。。。


web开发结合爬虫案例,最常见的就是各网站的信息整合,例如新闻整合的网站,其背后就是使用了爬虫采集各站信息。


5

结语


最后的最后,其实笔者现在就是处于上面的尴尬阶段,如果单纯的写入门级爬虫文章,对自己来说是没有太大意义的,单从技术上来说并无很大提升。


所以后续的文章,希望可以分享一些和 Python 相关的实用性文章,提升大家工作效率,或者真正可以改变生活中难点的文章。


当然如果这些效率性文章也写完了,就打算开始写写对自己专业技能有提升的东西了,比如算法!用 Python 写出来的算法代码,真的是非常简洁。。。


好啦,今天的分享就到这里,有什么想对我说的,欢迎留言呐!




▼往期精彩回顾▼谈谈读书100行代码教你爬取斗图网python队列小知识

长按关注

公众号名称:咪哥杂谈

一个咪咪怪的公众号

长按二维码关注哦!


你点的每个在看,我都认真当成了喜欢

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存